作者 通讯作者
水生生物研究, 2013 年, 第 2 卷, 第 11 篇
收稿日期: 2013年09月17日 接受日期: 2013年10月05日 发表日期: 2013年10月25日
引用格式(中文):
曾地刚, 基于高通量测序的凡纳滨对虾的转录组分析, 基因组学与应用生物学, 32(3): 303-318(10.3969/gab.032.000308)
引用格式(英文):
Zeng et al.,2013, Deep Sequencing-based Transcriptome Analysis of Litopenaeus Vannamei, Genomics and Applied Biology (Online) , 32(3): 303-318(10.3969/gab.032.000308)
凡纳滨对虾是世界养殖最广泛的甲壳动物,但是目前凡纳滨对虾的基因组及转录组数据还比较缺乏。为了获得凡纳滨对虾的转录组信息,本研究应用454高通量测序技术对凡纳滨对虾肝胰腺的转录组进行测序。获得了500 177条凡纳滨对虾EST,平均长度363 bp。拼接获得了20 225 条unigene,长度范围50~8 980 bp,平均长度507 bp。所有unigene与NCBI的非冗余蛋白质数据库(Nr)进行相似搜索(E 值<10-5),结果一共有13 676条unigene (68%)与数据库中的已知基因同源。此外,还对unigene进行了GO、COG和KEGG的功能注释、分类或通路分析。我们通过高通量测序,获得了丰富的凡纳滨对虾转录组信息,为凡纳滨对虾的新基因克隆和基因组学研究提供了有价值的数据。
介绍
凡纳滨对虾(Litopenaeus vannamei),又称南美白对虾,是全球对虾养殖量最大的品种之一(Zhou et al., 2012),也是我国南方主要的对虾养殖品种。凡纳滨对虾具有壳薄体肥、肉质鲜嫩、生长迅速、群体增长均匀、抗病力强等优点,而深受国内外市场的青睐(马宁等, 2008)。由于凡纳滨对虾巨大的经济价值和重要的进化地位,吸引了越来越多的学者对它的生长、发育、繁殖、免疫和遗传等进行研究(Liu et al., 2010)。但是,目前凡纳滨对虾的基因组及转录组数据还比较缺乏,影响了这方面的研究。基因表达序列标签(expressed sequence tags, EST)可以用来进行转录组的研究。迄今为止,GenBank已有162 933条凡纳滨对虾EST,这些EST数据大多数是通过传统的Sanger测序方法获得的。这些EST 数据可以用于克隆功能基因,挖掘分子标记,设计cDNA芯片。但现有数据仍然难以满足研究需求。此外,这些凡纳滨对虾EST只有不到1 万条已经被拼接和注释,很大程度上限制了该EST 数据的使用。目前已经有一些凡纳滨对虾的转录组相关的研究报道(Robalino et al., 2007; Clavero-Salas et al., 2007),但是主要是使用传统的Sanger测序或cDNA芯片的方法进行的。传统的Sanger测序方法需要先构建一个cDNA文库,然后用对挑选的克隆进行测序,不但实验步骤比较繁琐,而且花费的时间和成本比较高。cDNA 芯片方法虽然是一种快速和高通量的方法,但是需要预先知道基因的序列,而目前凡纳滨对虾对虾的基因组资源还比较少,限制了该方法的应用。
高通量测序是在芯片上并行地对数百万计的DNA分子进行测序,一次可以产生巨大数据量的测序结果,它显示了测序技术划时代的变革,因此被称为新一代测序技术。同时高通量测序能够对一个物种的基因组或转录组进行深入的分析,因此又被称为深度测序(Margulies et al., 2005)。下一代测序技术又分为第二代和第三代测序技术,第二代测序技术的核心思想是边合成边测序,即通过捕捉新合成的末端的标记来确定DNA的序列。第三代测序技术则是基于纳米孔的单分子测序。目前第二代测序技术的技术平台主要包括Roche 454、Illumina Solexa和Applied Biosystems Solid (Liu et al., 2012)。这三个技术平台各有优点,其中Roche 454的测序片段比较长,目前高质量的读长能达到400 bp以上,与ABI的Solid 和Illumina 公司的Solexa 相比,由于读长较长,尤其适合没有基因组参考序列的物种的基因组或转录组测序(You et al., 2011)。本研究我们采用454焦磷酸测序技术,对凡纳滨对虾的肝胰腺进行高通量转录组测序,并对所得的EST进行数据分析。在本研究中,我们获得了超过50万条高质量的EST序列,并进行了序列拼接、功能注释和KEGG通路分析等研究,这些测序结果和分析为凡纳滨对虾的基因组学研究提供了丰富的资源,促进了我们对凡纳滨对虾转录组的了解。
1结果与分析
1.1测序和序列拼接
我们用凡纳滨对虾肝胰腺提取的mRNA构建了cDNA文库,对文库进行454焦磷酸测序。所得高通量测序数据提交至NCBI sequence read archive (SRA),登录号SRX181883。去除原始序列中的低质量、短序列和接头序列后,结果获得了500 177条凡纳滨对虾EST 序列,长度范围从41 bp至620 bp,平均长度363 bp。拼接获得了20 225条单基因序列 (unigene),长度范围从50 bp 至8 980 bp,平均长度507 bp (图1)。
图1 Unigene 的长度分布 注: X 轴表示unigene 的长度(bp); Y 轴表示相应的基因数量 Figure 1 Length distribution of unigenes Note: The X axis shows the unigene length (bp); the Y axis shows the number of the corresponding unigenes |
1.2基因功能注释
所有的unigene与NCBI (National Center of Biotechnology Information)的非冗余蛋白质数据库(Nr)进行相似搜索(E 值<10-5),结果一共有13 676个unigene (68%)与数据库中已知基因同源,而其余6 549个unigene (32%)与数据库中的已知基因同源性较低,可能属于新基因。
1.3 COG功能注释及分类
COG是一个用来归类基因产物的数据库,其中每一个蛋白质被假定为来自同源的祖先蛋白质,整个数据库是根据细菌、藻类和真核细胞具有完整的基因组编码蛋白以及清晰的系统演化关系进行构建的(Tatusov et al., 2000)。将所有unigene与COG数据库进行比对,结果有4 645个unigene 得到注释,并被分为25个COG 类(图2)。其中,一般功能预测(general function prediction only)所占的比例最大,其次是翻译后修饰,蛋白质折叠,分子伴侣(posttranslational modification, protein turnover, chaperones)和信号传导机制(signal transduction mechanisms)。而核结构 (nuclear structure)、防御机制(defense mechanisms)和细胞活动(cell motility)等类别所占的比例最小。
图2 Unigene 的COG 分类 注: 图中的百分数代表各个COG 功能分类所占的比例 Figure 2 COG classification of the unigenes Note: The percentages in the figure represent the proportion of different COG categories |
1.4 GO功能注释及分类
GO是一个采用动态更新的标准词汇表来描述基因和其产物功能的数据库,目前被广泛应用于生物的转录组数据分析研究中(Conesa and Gotz, 2008),GO总共分为3大功能类,分别描述基因的分子功能(molecular function)、所处的细胞位置(cellular component)和参与的生物过程(biological process)。所有的unigene 与GO 数据库进行比对的结果表明,一共有4 067 条unigene (20%)被注释和分类到49个功能亚类中(图3)。结果显示,凡纳滨对虾的细胞杀伤 (cell killing)、节律过程(rhythmic process)、突触 (synapse)、通道调节活动(channel regulator activity)、金属分子伴侣活动(metallo chaperone activity)、核酸结合的转录因子的活动(nucleic acid binding trans cription factor activity) 和转录调节活动(translation regulator activity)等8个功能亚类的Unigene 很少,而其余的功能亚类的Unigene分布比较均衡。
图3凡纳滨对虾基因的GO 功能分类 注: X 轴表示GO 功能的亚类; Y 轴表示注释基因的百分比 Figure 3 Gene Ontology (GO) classification of putative functions of unigenes from Litopenaeus vannamei Note: X axis: Subgroups of molecular functions from GO classification; Y axis: The percentage of the matched unigenes |
1.5 KEGG Pathway注释
KEGG数据库记录细胞中基因产物的功能以及基因产物的相互作用网络,基于KEGG 通路的分析有助于我们进一步了解基因的生物学功能(Ogata et al., 1999)。分析结果,一共有4 104条unigene (20%)被注释,并被归类到176个KEGG通路。图表显示了基因数量排名前20 位的KEGG 通路(图4),包括代谢途径 (metabolic pathways)、吞噬体(phagosome)、粘着(focal adhesion)、紧密连接(tight junction)、粘合连接(adherens junction)、次生代谢生物合成(biosynthesis of secondary metabolites)、溶酶体(lysosome)、核糖体(ri bosome)、氧化磷酸化(oxidative phosphorylation)、蛋白质消化吸收(protein digestion and absorption)、酪氨酸代谢(tyrosine metabolism)、过氧化物酶体(peroxisome)、细胞色素P450 介导的外源物代谢(metabolism of xenobiotics by cytochrome P450)、氨基糖和核苷酸代谢(amino sugar and nucleotide sugar metabolism)、内质网中的蛋白质过程(protein processing in endoplasmic reticulum)、脂肪酸代谢(fatty acid metabolism)、核黄素代谢(riboflavin metabolism)、氨基苯甲酸降解(aminobenzoate degradation)、异喹啉类生物碱生物合成(isoquinoline alkaloid biosynthesis)和RNA运输(RNA transport)。
图4 Unigene 的KEGG 分析, 显示基因数量排名前20 位的KEGG 通路 注: X 轴表示KEGG 分类, Y 轴表示匹配的基因数量 Figure 4 KEGG Classification of the unigenes, the top 20 most abundant KEGG pathways are shown Note: The x axis shows pathways from KEGG classification and the y axis shows the number of the matched unigenes |
2讨论
转录组是在一个或多个细胞中表达的RNA转录物的集合(Etebari et al., 2011)。通过转录组分析可以帮助我们在整体水平上研究细胞中基因转录的情况及转录调控规律。过去的转录组研究通常采用Sanger测序和cDNA芯片方法,而现在的转录组研究越来越多采用高通量测序技术。和cDNA 芯片方法相比,高通量转录组测序不需要预先针对已知序列设计探针,可以对任意物种的转录组进行测序,提供更高的检测通量和花费更低成本和时间,是研究转录组更理想的方法。目前已经有一些甲壳动物,例如罗氏沼虾(Macrobrachium rosenbergii)、中华绒鳌蟹(Eriocheir sinensis)和藤壶(Balanus amphitrite)等用高通量测序技术进行了转录组研究(de Gregoris et al., 2011; He et al., 2012; Jung et al., 2011)。本研究采用454焦磷酸高通量测序技术,对凡纳滨对虾肝胰腺的转录组进行测序和功能分析,拼接共得到20 225条unigene,与NCBI非冗余蛋白质数据库(Nr)比对的结果显示,有6 549条unigene 与数据库中的已知基因同源性较低,占总数的32%,可能是未知基因。其余的13 676条unigene (68%)与数据库中的已知基因同源性比较高,其中和数据库已有的凡纳滨对虾序列匹配的仅占5.11%,而大部分是和其它物种匹配。这说明数据库中已有的凡纳滨对虾基因序列还很少,我们获得的unigene 大大丰富了现有数据库中的凡纳滨对虾基因资源。本研究测序获得的序列平均长度为363 bp,这已经和传统Sanger测序的读长相差不大。比较长的测序读长可以有效减少拼接的错误,提高拼接重叠群的长度,对于没有参照基因组的物种的测序尤为重要(Franssen et al., 2011)。截至目前,凡纳滨对虾还没有全基因组测序的报道。我们在没有参照基因组的情况下,对测序所得的序列进行从头拼接(de novo assembly),获得了20 225条unigene,平均长度为507 bp,通过抽样与GenBank中的序列比对发现,拼接的质量很好,没有发现拼接错误的情况。我们测序的结果表明,454测序是一种高效率、低成本和高通量的转录组分析方法。
GO、COG和KEGG注释对于深入了解基因的功能很重要。我们获得的unigene只有大约20%被注释到GO、COG和KEGG数据库,这主要是因为目前国际公共基因数据库中收录甲壳动物基因还比较少,本研究获得的很多凡纳滨对虾unigene都搜索不到同源基因序列。尽管这样,这3个数据库注释结果可帮助我们了解更多凡纳滨对虾生物学特性。通过这些注释,我们可以了解基因的分子功能、所处细胞位置、参与的生物过程、所处的代谢途径或信号通路等等,这为今后发掘凡纳滨对虾功能基因、研究相关生理功能提供了数据。例如,我们发现几百个基因和细胞免疫功能相关,这些基因序列将来可以用来制作基因表达谱芯片,可用来检测凡纳滨对虾的免疫水平,作为凡纳滨对虾抗病品系选育的生化指标。
本研究通过高通量测序,获得了大量的凡纳滨对虾的转录组信息,为凡纳滨对虾的基因克隆、分子标记发掘和基因组学研究等提供了有价值的数据。今后,还将进行比较转录组的研究,包括不同发育阶段、不同性状、病毒感染和环境因子胁迫的凡纳滨对虾的转录组研究。部分工作目前正在进行当中。
3材料与方法
3.1材料
实验对虾采自广西南美白对虾遗传育种中心的无特定病原(SPF)凡纳滨对虾家系,共20 尾,平均体重约11 g。实验对虾暂养在25~26℃水温度的海水中。采样时取虾的肝胰腺组织,保存在液氮中备用。
3.2方法
3.2.1 RNA提取
使用Trizol试剂盒(Qiagen),按照说明书的步骤提取凡纳滨对虾肝胰腺的总RNA。用分光光度计测定RNA浓度,并通过1.5% (重量/ 体积)琼脂糖凝胶电泳检测RNA的完整性。RNA提取后,使用PolyA Ttract mRNA分离系统(Promega)纯化mRNA,并使用Reasy RNA试剂盒(Qiagen)收集。然后将20个样品的mRNA 进行等量混合,用于cDNA合成。
3.2.2 cDNA文库构建和测序
用RNA Fragment reagent试剂盒(illumina)将混合的mRNA碎裂成300~800 bp的小片段。片段化完成后,用Reasy RNA cleaning试剂盒(Qiagen)对片段化产物进行回收,回收后用随机引物和MMLV 进行反转录合成第一链,合成完第一链后用DNA PolymeraseⅠ和RNase H 合成第二链。过程如下:(1)将回收后的14 μL RNA 加2 μL 400 μmol/L N6 Radom Primer, 68℃温浴10 min;(2)向上述RNA 管中加2 μL dNTP, 2 μL DTT,6 μL 5×First Strand Buffer,2 μL MMLV RTase 和2 μL H2O,42℃反应30 min;(3)向上述反应液中加5 μL 10×DNA PolymeraseⅠBuffer,1 μL DNA PolymeraseⅠ(10U),1μLRNaseH(6U),加水至50μL,16℃温浴2 h;(4)反应完成后用MinElute DNA Cleaning试剂盒(Qiagen)回收产物;(5)接头连接:取上述回收产物15 μL,向其中加1 μL Adptor和2 μL 10×DNA Ligase Buffer和2 μL T4 DNA Ligase,25℃温浴10 min,温浴完毕用MinElute DNA Cleaning 试剂盒回收产物,在454 GS FLX系统(Roche)进行测序。
3.2.3序列拼接、功能注释、分类和通路分析
用SeqClean程序(http://compbio.dfci.harvard.edu/tgi/software )去除接头的序列和低质量的序列。用iAssembler程序(http://bioinfo.bti.cornell.edu/tool/i-Assembler )进行序列拼接(Zheng et al., 2011)。拼接所得unigene分别与与NCBI Nr、SwissProt、GO、COG、KEGG等数据库进行比对(E 值<10-5),并选取最佳注释(Zhang et al., 2010)。Nr的注释工具采用blastx,COG和SwissProt的注释采用blastx,GO注释采用blast-2GO,KEGG pathway注释采用blastx和GenMAPP2.1 (http://www.genmapp.org/ )。
作者贡献
曾地刚负责数据分析和论文撰写;陈秀荔、谢达祥、赵永贞、杨春玲、马宁和李咏梅负责样品处理和实验工作;陈晓汉负责总体设计及指导研究工作。
致谢
感谢广西南美白对虾遗传育种中心提供实验动物。本论文得到国家自然科学基金项目(31160531)资助,在此表示感谢!
Clavero-Salas A., Sotelo-Mundo R.R., Gollas-Galvan T., Hernandez-Lopez J., Peregrino-Uriarte A.B., Muhlia-Almazan A., and Yepiz-Plascencia G., 2007, Transcriptome analysis of gills from the white shrimp Litopenaeus vannamei infected with white spot syndrome virus, Fish & Shellfish Immunology, 23(2): 459-472
Conesa A., and Gotz S., 2008, Blast2GO: A comprehensive suite for functional analysis in plant genomics, International Journal of Plant Genomics, 2008: 619832
De Gregoris T.B., Rupp O., Klages S., Knaust F., Bekel T., Kube M., Burgess J.G., Arnone M.I., Goesmann A., Reinhardt R., and Clare A.S., 2011, Deep sequencing of naupliar-, cypridand adult-specific normalised expressed sequence tag (EST) libraries of the acorn barnacle Balanus amphitrite, Biofouling, 27(4): 367-374
Etebari K., Palfreyman R.W., Schlipalius D., Nielsen L.K., Glatz R.V., and Asgari S., 2011, Deep sequencing-based transcriptome analysis of Plutella xylostella larvae parasitized by Diadegma semiclausum, BMC Genomics, 12: 446
Franssen S.U., Shrestha R.P., Brautigam A., Bornberg-Bauer E., and Weber A.P., 2011, Comprehensive transcriptome analysis of the highly complex Pisum sativum genome using next generation sequencing, BMC Genomics, 12: 227
He L., Wang Q., Jin X., Wang Y., Chen L., and Liu L., 2012, Transcriptome profiling of testis during sexual maturation stages in Eriocheir sinensis using illumina sequencing, PloS one, 7(3): e33735
Jung H., Lyons R.E., Dinh H., Hurwood D.A., McWilliam S., and Mather P.B., 2011, Transcriptomics of a giant freshwater prawn (Macrobrachium rosenbergii): De novo assembly, annotation and marker discovery, PloS One, 6(12): e27938
Liu K.F., Chiu C.H., Shiu Y.L., Cheng W., and Liu C.H., 2010, Effects of the probiotic, Bacillus subtilis E20, on the survival, development, stress tolerance, and immune status of white shrimp, Litopenaeus vannamei larvae, Fish & Shellfish Immunology, 28(5-6): 837-844
Liu L., Li Y., Li S., Hu N., He Y., Pong R., Lin D., Lu L., and Law M., 2012, Comparison of next-generation sequencing systems, J. Biomed. Biotechnol., 2012: 251364
Ma N., Chen X.H., Zeng D.G., Peng M., and Li Y.M., 2008, SNPanalysis of the Cathepsin L gene in Litopenaeus vannamei, Wuhan Daxue Xuebao (Lixueban) (Journal ofWuhan University: Natural Science Edition), 54(4): 503-506 (马宁, 陈晓汉, 曾地刚, 彭敏, 李咏梅, 2008, 凡纳滨对虾组织蛋白酶L 基因的单核苷酸多态性分析, 武汉大学学报(理学版), 54(04): 503-506)
Margulies M., Egholm M., Altman W.E., Attiya S., Bader J.S., Bemben L.A., Berka J., Braverman M.S., Chen Y.J., Chen Z., Dewell S.B., Du L., Fierro J.M., Gomes X.V., Godwin B.C., He W., Helgesen S., Ho C.H., Irzyk G.P., Jando S.C., Alenquer M.L., Jarvie T.P., Jirage K.B., Kim J.B., Knight J. R., Lanza J.R., Leamon J.H., Lefkowitz S.M., Lei M., Li J., Lohman K.L., Lu H., Makhijani V.B., McDade K.E., McKenna M.P., Myers E.W., Nickerson E., Nobile J.R., Plant R., Puc B.P., Ronan M.T., Roth G.T., Sarkis G.J., Simons J.F., Simpson J.W., Srinivasan M., Tartaro K.R., Tomasz A., Vogt K.A., Volkmer G.A., Wang S.H., Wang Y., Weiner M.P., Yu P., Begley R.F., and Rothberg J.M., 2005, Genome sequencing in microfabricated high-density picolitre reactors, Nature, 437(7057): 376-380
Ogata H., Goto S., Sato K., Fujibuchi W., Bono H., and Kanehisa M., 1999, KEGG: Kyoto encyclopedia of genes and genomes, Nucleic Acids Research, 27(1): 29-34
Robalino J., Almeida J.S., McKillen D., Colglazier J., Trent H.F., Chen Y.A., Peck M.E., Browdy C.L., Chapman R.W., Warr G.W., and Gross P.S., 2007, Insights into the immune transcriptome of the shrimp Litopenaeus vannamei: Tissue- specific expression profiles and transcriptomic responses to immune challenge, Physiological Genomics, 29(1): 44-56
Tatusov R.L., Galperin M.Y., Natale D.A., and Koonin E.V., 2000, The COG database: A tool for genome-scale analysis of protein functions and evolution, Nucleic Acids Research, 28(1): 33-36
You F.M., Huo N., Deal K.R., Gu Y.Q., Luo M.C., McGuire P.E., Dvorak J., and Anderson O.D., 2011, Annotation-based genome-wide SNP discovery in the large and complex Aegilops tauschii genome using next-generation sequencing without a reference genome sequence, BMC Genomics, 12: 59
Zhang F., Guo H., Zheng H., Zhou T., Zhou Y., Wang S., Fang R., Qian W., and Chen X., 2010, Massively parallel pyrosequencing-based transcriptome analyses of small brown planthopper (Laodelphax striatellus), a vector insect transmitting rice stripe virus (RSV), BMC Genomics, 11: 303
Zheng Y., Zhao L., Gao J. and Fei Z., 2011, iAssembler: A package for de novo assembly of Roche-454/Sanger transcriptome sequences, BMC Bioinformatics, 12: 453
Zhou J., FangW., Yang X., Zhou S., Hu L., Li X., Qi X., Su H., and Xie L., 2012, A nonluminescent and highly virulent Vibrio harveyi strain is associated with"bacterial white tail disease” of Litopenaeus vannamei shrimp, PloS One, 7(2): e29961